【arXiv】Masked-attention Mask Transformer for Universal Image Segmentation

发布日期：2022-03-27 返回

Masked-attention Mask Transformer for Universal Image Segmentation

分享人：张健
研究方向：异常检测
论文题目：Masked-attention Mask Transformer for Universal Image Segmentation
论文作者：Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar
作者单位：脸书人工智能实验室；伊利诺伊大学厄巴纳-香槟分校
论文摘要：图像分割是用不同的语义将像素分组，例如，类别或实例成员，其中每种语义的选择定义了一种任务。虽然每种任务只是语义不同，但目前的研究侧重于为每个任务设计专门的架构。我们提出了一种新的架构——掩模注意力的掩模Transformer (Mask2Former)，它能够处理任何图像分割任务(全景、实例或语义)。该算法的关键组成部分包括掩模注意力，通过约束掩模预测区域内的交叉注意力来提取局部特征。除了减少至少三倍的研究工作外，它在四个流行的数据集上的性能显著优于最好的专用架构。最值得注意的是，Mask2Former 在全景分割（COCO 上的 57.8 PQ）、实例分割（COCO 上的 50.1 AP）和语义分割（ADE20K 上的 57.7 mIoU）上达到了最优的性能。
原文链接：

点击此处